其他
微软 GAIA:ZERO-SHOT的对口型单张图生成视频技术
微软上个月底发布了一篇论文,《GAIA: ZERO-SHOT TALKING AVATAR GENERATION》,是微软的对口型视频生成技术。论文在这里:https://arxiv.org/abs/2311.15230。
Demo和Code的网站目前无法访问,可以看一些示例:
工作原理
GAIA的工作原理如下图所示:
GAIA由VAE(Variational Autoencoder)和diffusion模型组成。VAE用于将每个视频帧编码成一个解缠绕的表示(即运动和外观表示),并从这个解缠绕的表示重构出原始帧。然后,diffusion模型被优化,以生成在语音序列和视频剪辑中的随机帧条件下的运动序列。在推理过程中,扩散模型以输入的语音序列和参考肖像图像作为条件,产生运动序列,然后利用VAE的解码器将其解码成视频。
效果展示
GAIA与最先进的基于语音的方法进行了定性比较。结果显示,GAIA在自然度、嘴唇同步质量、视觉质量和运动多样性方面均表现出更高的水平。相比之下,其他基线方法往往过于依赖参考图像,因此容易生成轻微运动(例如,当参考图像的眼睛闭合时,大多数基线方法生成闭眼的结果)或不准确的嘴唇同步。
与其他技术的比较
以下是GAIA与其他技术的比较:
自然度:GAIA胜出,生成的视频更加自然。 嘴唇同步质量:GAIA优于其他技术,嘴唇的运动与语音更为匹配。 视觉质量:GAIA的视觉质量更高,细节更加清晰。 运动多样性:GAIA在运动多样性方面表现出色,生成的视频更富有生动感。